7. 数据是后训练最重要的基石

#大模型

在大模型后训练（Post-training）中：

数据质量，往往比模型规模更重要。

很多时候：

一个小模型 + 高质量数据
可以超过
一个大模型 + 低质量数据

因此：

数据是决定模型能力上限的核心因素之一。

1. 为什么数据如此重要

后训练本质上是：

让模型学习“什么是好的回答”。

而模型学习的来源：

就是训练数据。

因此：

数据决定模型行为
数据决定模型风格
数据决定模型推理方式
数据决定模型安全性

2. 微调（SFT）训练数据的结构

在监督微调（SFT）中，

训练数据通常包括：

Input → Think → Output

即：

输入（Input）
推理过程（Think / CoT）
最终答案（Output）

3. SFT 数据示例

input：
小明有3个苹果，又买了2个，现在有几个苹果？

output：
<think>
开始有3个苹果，
后来又买了2个，
所以 3 + 2 = 5
</think>

5

这种数据会训练模型：

如何思考
如何推理
如何回答

4. 强化学习（RL）训练数据的结构

RL 数据与 SFT 不同。

它不仅需要：

问题
回答

还需要：

评价信息（Reward）。

5. RL 数据示例

例如：

input：
小明有3个苹果，又买了2个，现在有几个苹果？

模型生成：

output：
5

然后 Grader 给出：

reward：+1

6. Preference Data（偏好数据）

RL 中更常见的是：

好回答 vs 坏回答

例如：

好回答

回答A：
<think>
3 + 2 = 5
</think>

5

差回答

回答B：
7

偏好标注

A > B

模型会学习：

哪种回答更符合人类偏好。

7. 数据集划分（Dataset Split）

训练中，通常会将数据拆分为：

数据集	作用
Train Set（训练集）	用于训练模型
Validation Set（验证集）	调参与中间评估
Test Set（测试集）	最终评估模型能力

8. 训练集（Train Set）

作用：

让模型学习。

模型会不断看到这些数据。

因此：

模型可能记住训练集。

9. 验证集（Validation Set）

也叫：

Dev Set
Cross Validation Set

作用：

调参
选择最佳模型
判断是否过拟合

例如：

学习率是否合理
模型是否训练过头

10. 测试集（Test Set）

测试集最重要的原则：

模型绝对不能见过。

因为测试集的目标是：

真实评估泛化能力。

11. RL 中的数据划分

强化学习同样需要：

RL Train
RL Validation
RL Test

原因是：

RL 模型可能“骗奖励”。

12. Reward Hacking（奖励作弊）

例如：

模型可能发现：

只要重复某些词就能得高分。

而不是真正提升能力。

因此：

必须使用独立 RL-Test 数据集。

用于检测：

模型是否真正变强
是否只是利用奖励漏洞

13. 为什么最终评估必须使用“未见数据”

真正重要的不是：

模型记住了什么。

而是：

模型能否泛化。

因此最终评估应该使用：

未见问题
新场景
新任务

否则：

测试结果可能是假的高分。

14. 数据去重（Deduplication）

数据去重（Dedup）非常重要。

因为重复数据会导致：

过拟合
数据污染
虚假高分
泛化下降

15. 数据泄漏（Data Leakage）

如果：

测试集内容
出现在训练集中

模型可能只是：

“背答案”。

这会严重污染评估结果。

因此：

Train / Test 去重非常关键。

16. 按时间划分数据集

一个非常有效的方法是：

按时间切分数据。

例如：

时间	用途
2023 数据	Train
2024 数据	Validation
2025 数据	Test

这样可以更真实模拟：

模型面对未来未知数据的能力。

17. 为什么数据准备如此困难

现实中：

大部分生成的数据其实没有价值。

甚至会：

降低模型性能。

18. 数据质量问题

例如：

错误答案
低质量推理
重复样本
格式混乱
虚假 CoT
AI 自己编造的数据

这些都会污染模型。

19. 一个真实现象

很多时候：

100份数据里，
真正有价值的可能只有1份。

剩下：

99%
可能都在降低模型质量。

因此：

数据过滤（Data Filtering）非常重要。

20. 为什么测试集尤其重要

很多团队的问题不是：

“模型训练不好”。

而是：

“评估错了”。

如果测试集质量差：

无法发现模型问题
无法判断模型是否真正提升
无法检测奖励作弊

最终：

会错误优化模型方向。

21. 高质量数据的核心特点

好的训练数据通常具备：

特点	说明
正确	答案可靠
多样	覆盖不同场景
高质量推理	CoT合理
格式统一	易训练
无污染	无测试泄漏
高难度	能提升能力

22. 一句话总结

SFT：

模型会变成训练数据的样子。

RL：

模型会变成奖励机制鼓励的样子。

最终：

数据质量决定模型上限，
测试质量决定你是否真的知道模型变强了。